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В статье рассмотрено решение задачи автоматического распознавания фрагментов текстового документа, 
заимствованных из Интернет-доступных источников. Приведена постановка задачи автоматического 
распознавания плагиата, дается описание системы автоматического распознавания воспроизведенных 
фрагментов текстовых документов, а также соответствующего алгоритма их обнаружения. Предложенные 
решения позволяют системе, построенной в соответствии с ними, распознавать случаи заимствования как 
из заранее заданной полнотекстовой базы данных, так и из полнотекстовой базы данных, полученной в 
результате автоматического Интернет-поиска по ключевым словам, выделенным из анализируемых документов. 
Ключевые слова: естественный язык, автоматическая обработка текстов, заимствованный фрагмент, 
ключевые слова. 
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У стати розглянуто рипення задач! автоматичного розшзнавання фрагментв текстового документа, 
запозичених з 1нтернет-доступних джерел. Наведена постановка завдання автоматичного розшзнавання 
плапату, даеться опис системи автоматичного розшзнавання в1дтворених фрагмент текстових документе, а 
також вдповдного алгоритму 1х виявлення. Запропонован! рипення дозволяють систем, побудованй 
вдпондно до них, розшзнавати випадки запозичення як 13 заздалемлдь задано! повнотекстово! бази даних, так 
1 з повнотекстово{ бази даних, отримано! в результат! автоматичного Тнтернет-пошуку за ключовими 
словами, видленими з аналзованих документив. 

Ключов! слова: природнича мова, автоматична обробка текст!в, запозичений фрагмент, ключов! слова. 


Введение 


Развитие информационных технологий, обеспечивающих электронную форму 
хранения подавляющего большинства текстовых документов практически во всех об- 
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ластях человеческой деятельности, существенно обострило проблему их качественной 
компьютерной обработки с целью автоматизации решения различных прикладных 
задач. Одной из них является трудоемкая задача определения плагиата в текстовых 
документах. 


Постановка задачи 


Существует множество определений плагиата. В русском языке значение слова 
плагиат (от лат. р!аг1о — похищаю) известно давно и с течением времени не претерпело 
значимых изменений. 

Чаще всего под плагиатом понимают умышленное присвоение авторства на 
чужое произведение литературы, науки, искусства, изобретение или рационализаторское 
предложение (полностью или частично). Предусматривается уголовная и гражданская 
ответственность за нарушение авторских и изобретательских прав [1]. 

Случаи плагиата могут быть и непреднамеренными, например, вследствие 
сильного внешнего информационного влияния, которое может проявляться в 
использовании идей или характерного способа их выражения, а также несоблюдения 
общепринятых правил цитирования, если речь идет об информации, представленной 
в текстовой форме. 

Способы обнаружения плагиата варьируются в зависимости от того, в какой 
предметной области рассматривается данное понятие. Далее будем исследовать за- 
дачу распознавания плагиата применительно к информации, представленной в виде 
текстовых документов на естественном языке (ЕЯ). 

Задачу распознавания плагиата в контексте её приложений и сложности реше- 
ния мы рассматриваем в двух постановках: 

— распознавание заимствованных (воспроизведенных) фрагментов текста (точное 
совпадение или совпадение с точностью до лексической и грамматической синонимии); 

— распознавание семантически эквивалентных фрагментов, по крайней мере, 
на уровне основных типов знаний о внешнем мире / предметной области, а именно 
объектов (концептов), фактов (семантических отношений между объектами типа С- 
А-О, где С — субъект, А - акция, О — объект) и причинно-следственных отношений 
между самими фактами, полными и неполными, которые отображают закономерности 
внешнего мира / предметной области [2], [3]. В определённом смысле вторую поста- 
новку задачи можно рассматривать как развитие первой, которой и посвящена на- 
стоящая работа. Таким образом, речь идет о распознавании воспроизведенных фраг- 
ментов текстовых документов, т.е. тех фрагментов данного (входного) документа, 
которые заимствованы из других документов, представленных, в конечном счете, в 
некоторой заданной многоязычной полнотекстовой базе данных, в нашем случае — 
белорусско-русской. 

В настоящее время существуют некоторые системы, решающие такого же типа 
задачи. Наибольшее распространение получили среди них системы \У’Соруйпа, 
СоруСасв, Р]ахла погт, Анти-Плагиат, оперирующие алгоритмами распознавания 
явного, но не всегда точного заимствования фрагментов текста: их соответствие по 
лексическому составу и позициям лексических единиц, либо только по лексическому 
составу, с учётом простейших морфологических преобразований и отношений сино- 
нимии. К тому же, каждая из этих систем поддерживает работу только с одним 
языком. Существующие системы в большинстве своем не обеспечивают приемлемых 
результатов работы по таким показателям, как полнота и точность анализа текстов, 
скорость их обработки, объемы используемой памяти ЭВМ, что во многом связано с 
недостаточной эффективностью реализуемых алгоритмов [4]. 
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Структурно-функциональная схема системы 


В работе [4] определена базовая функциональность, а также структурно-функ- 
циональная схема системы автоматического распознавания воспроизведенных фраг- 
ментов текстового документа, которая, в качестве основных, включает подсистемы: 
определения языка текстового документа, машинного перевода, автоматического ин- 
дексирования и поиска релевантных документов, а также распознавания эквива- 
лентности фрагментов документов. 

Наличие подсистем определения языка текстового документа и машинного 
перевода обусловлено тем, что рассматриваемая задача решается в многоязычной 
информационной среде. 

Для определения языка текстового документа применялись методы, ориентирован- 
ные на использование знаний о естественном языке в пределах от уровня алфавита 
до лексико-грамматического уровня глубины ЕЯ [5]. 

В качестве подсистемы МПИ использовалась уже существующая система ма- 
шинного перевода в белорусско-русской информационной среде [2], [6]. Это система 
трансферного типа, кроме того, она «умеет» настраиваться на предметную область на 
основе автоматического анализа предлагаемого пользователем соответствующего кор- 
пуса текстов. 

Подсистема автоматического индексирования и поиска релевантных документов 
обеспечивает возможность поиска документов, релевантных входному, в заранее 
заданной полнотекстовой БД, и Интернет-поиска по ключевым словам, автоматически 
выделенным из анализируемого документа. 

Что касается функциональности собственно распознавания воспроизведенных 
фрагментов текстовых документов, то она ориентирована не только на явное, но и 
неявное заимствование с точностью до парадигм лексических единиц и отношений 
лексической и грамматической синонимии. 

Общая функциональность системы потребовала в совокупности использования 
развитого лингвистического процессора (ЛП), ориентированного на автоматический 
лексико-грамматический, синтаксический и семантический уровень анализа и синтеза 
языка. Такой сложный базовый модуль системы опирается в своей работе на лингви- 
стическую базу знаний (ЛБЗ), включающую различные, в том числе и эталонные, 
словари языков и корпусы их текстов, грамматики языков, классификаторы их свойств 
на различных уровнях глубины языков, так называемые распознающие лингвистиче- 
ские модели анализа текста в виде разработанных экспертом лингвистических правил 
(паттернов) и т.д. [2]. 


Подсистема автоматического индексирования 
и поиска релевантных документов 


В рамках подсистемы автоматического индексирования и поиска релевантных 
документов решается задача отбора документов, релевантных входному, для после- 
дующего анализа на предмет наличия в нем заимствований из полученного множества. 
То есть указанная задача включает следующие подзадачи: поиска релевантных до- 
кументов, создания их полнотекстовой БД и обнаружения заимствованных фрагментов. 
При этом релевантными считаются документы, возвращаемые информационно- 
поисковой системой Соозе [7] в качестве ответа на поисковый запрос в виде клю- 
чевых слов, автоматически выделенных из анализируемого документа. 
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Процесс выделения ключевых слов из входного документа заключается в назна- 
чении весовых коэффициентов нормализованным словам — термам, составляющим 
входной документ, а также в отборе требуемого их количества среди тех, чей вес 
превышает заданное пороговое значение. Расчет весовых коэффициентов осуществ- 
ляется по методу ТЕ-ШЕ [8], учитывающему статистическую информацию о вхожде- 
ниях слов как в анализируемый документ, так и в корпус текстов. 

Таким образом, вес ук К-го терма входного документа 4 рассчитывается по 
формуле: 

из = ТЕ `ШЕ , 


т 
где ТЕ — частота терма в анализируемом документе а, ТЕ = т пк — число 


вхождений К-го терма во входной документ, а М — общее число всех термов до- 


М рв 


кумента; ОЕ — обратная частота документа, ШЁ = 10 ‚ Мрв — число документов в 
К 
корпусе, а № — число документов корпуса, содержащих (-Й терм. 

В качестве корпуса текстов для расчета обратной частоты документа используется 
полнотекстовая база данных эталонных документов. Существует также возможность 
изменять как количество ключевых слов в запросе, так и количество документов, по- 
лучаемых при проведении Интернет-поиска. Вполне удовлетворительные результаты 
работы подсистемы достигаются в случае запроса из 15 ключевых слов с сохранением 
первых 50 Интернет-доступных документов. 

Важно отметить, что задача нормализации слов, т.е. их приведения к канони- 
ческому виду, решается путем использования функциональности, предоставляемой 
подсистемой МП, опирающейся на ЛП и ЛБЗ, включающую многочисленные словари, 
в том числе и базовый словарь русского языка, содержащий слова, сгруппированные 
по словоизменительным парадигмам. В базовом словаре парадигма представлена со- 
вокупностью словоформ совместно с соответствующими им лексико-грамматическими 
кодами (ЛГК). ЛГК отражает принадлежность слов лексико-грамматическим классам 
или, иначе, частям речи, (существительное, прилагательное, глагол и т.д.) и подклассам 
(например, личные местоимения, возвратные местоимения и т.д.) в соответствии с 
лексико-грамматическим классификатором, также являющимся компонентом ЛБЗ. 
Каждая парадигма начинается с канонической формы — словоформы, которая условно 
считается основной (первой). Например, каноническая форма для имени существи- 
тельного — именительный падеж единственного числа; для глагола — неопределенная 
форма глагола. Однако возможны ситуации, когда одна и та же словоформа присут- 
ствует в нескольких парадигмах, и в этом случае выбор канонической формы для такой 
словоформы входного документа является неоднозначным. Поэтому имеет место 
лексико-грамматический бесконтекстный анализ входного текста [6], позволяющий оп- 
ределить среди возможных вариантов лексико-грамматического анализа предложе- 
ния наиболее вероятные, т.е. однозначно установить ЛГК, а значит найти соответ- 
ствующую парадигму и выделить в ней каноническую форму слова. 


Алгоритм распознавания заимствованных предложений 
входного текста 


В основу эффективного решения рассматриваемой задачи положен следующий 
разработанный нами алгоритм распознавания заимствованных из текстовых доку- 
ментов БД отдельных предложений: 
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1. Начало. 

2. Построение обратного индекса /т входного текста Т: выбор из Т множества 
всех попарно различных канонических слов, т.е. построение словаря Ут канонических 
слов входного текста, с указанием для каждого слова и Е, множества №; всех 


номеров тех предложений из Т, в которых это слово содержится: 
Г. = {и М} =ЬМ’ |. 


3. Построение обратного индекса [рв БД текстов: создание словаря Урв 
канонических слов корпуса текстов, включающего все тексты БД, с указанием для 


1 2 к) 
каждого канонического слова у’, е У, множеств № | № . М . ’ всех номеров тех 


предложений каждого текста г”. т =1,К, ‚ из БД, в которых это слово содержится: 


к. 1 м | 
Трв = (и; МО, М.М, н = МИ Бы. 


4. Пересечение обратных индексов [т и [рв с целью получения списка У слов, с 
точностью до синонимии, общих для [т и [рь, с сохранением для каждого у’, ЕЙ его 


веса р; равного количеству предложений ИЗ БД, в которые входит данное И 
синонимичные ©еМу слова: 


К, 
о рум 
т=1 


5. Сортировка списка У в порядке возрастания весов входящих в него слов. 

6. Распознавание во входном текстовом документе Т предложений, заимство- 
ванных из текстовых документов БД. 

6.1 Пошаговый выбор из списка У" очередного слова и; и его поиск (фикси- 
рование) в каждом предложении текста Т, определяемом по номеру из множества 
М№,; начисление предложению накапливаемых веса р’, равного количеству таких 


5? 
слов в нем, и множества весов, каждый из которых, обозначим его р" ‚ равен количеству 
всех слов данного предложения, а также им синонимичных слов, входящих в одно И 
то же предложение БД, определяемое одинаковым значением его номера из мно- 
жеств № ОИ ‚ сохранение только тех весов р" и соответствующих номеров из множеств 


м) ‚ для которых, начиная с р'> и, р'-р"<и. 


5 

6.2 Как только р"= [- и , то данное предложение из Т является заимствованным из 
соответствующего текстового документа БД. 

7. Конец. 

В представленном алгоритме [ — количество слов предложения из Т, и — 
пороговое значение, т.е. максимально допустимое количество слов предложения 
из Т, не входящих в сравниваемое предложение из БД. Сортировка списка И (шаг 5) 
и использование весов р’ и р" (шаги 6.1, 6.2) существенно оптимизируют алгоритм 
решения задачи. Действительно, пошаговая обработка отсортированного списка \ 
позволяет сначала обнаружить в предложениях из Т заимствованные из БД слова с 


низким значением веса Р;, что характерно для слов с высокой предметной смысло- 
< [92 ! 
вой нагрузкой. А используемое при этом условие Р’-Р"< В, начиная с некоторого 
К, 
момента, настолько сужает, как показали эксперименты, множества №“, что после- 


дующий анализ слов из списка И/ с большим значением веса Рх, т.е., как правило, 
общеупотребительных слов, становится уже нетрудоемким. 
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Крапивин Ю.Б. 
ЗК - 


Выводы 


Представленные выше результаты были успешно реализованы в виде прото- 
типа системы автоматического распознавания воспроизведенных фрагментов тексто- 
вого документа, разработанного для высшей аттестационной комиссии Республики 
Беларусь, позволившего обеспечить проведение автоматического анализа в белорусско- 
русскоязычной информационной среде диссертационных работ и научных статей с 
целью распознавания в них случаев заимствования результатов других авторов как 
из заранее заданной полнотекстовой базы данных, так и из полнотекстовой БД, 
полученной в результате автоматического Интернет-поиска по ключевым словам, 
выделенным из рецензируемых диссертационных работ. Его функциональность обес- 
печивается развитым лингвистическим процессором, встроенной системой машинного 
перевода текстовых документов с белорусского языка на русский и дружественным 
интерфейсом пользователя-эксперта. 

Важно, что предложенные решения позволяют системе, построенной в соответ- 
ствии с ними, обладать преемственностью (путём наращивания мощности исполь- 
зуемой лингвистической базы знаний), т.е., в данном случае, способностью порожде- 
ния новых еб версий как с точки зрения поддержки работы с другими языками, так и 
увеличения глубины распознавания неявного заимствования за счёт использования 
уровня семантического анализа языка. 
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ВЕ5ОМЕ 


У.В. Ктартлт 
Аиютанйс Кесоетпоп орше Етазтет; ор йе Тех! Роситет!5 


Адореа гот ше ГПиетпе!-АуаПа БЕ Кезоигсеу 

ш Фе атас, аютайс гесосп! оп оЁ Фе Настеп$ оЁ Ше {ехЕ доситеп5 адореа 
Кот фе Пиегпес-ауаПаЫе гезоигсез 1$ сопзл4егед. Вез14ез, Фе агасе ргезеп5 а аейп!оп оЁ 
рахайзт 14епайсайоп ргоет, аз \уеЙ аз дезсириоп оЁ фе зузет оЁ Фе аиютанс гесо2- 
п1@оп оЁ гергодисе4 Разтпеп$ оЁ Фе {ехЕ доситеп, у/В1сЬ изез фе соггезропат? а[0- 
ит оЁГ Фет дыесйоп ап соп5$15$ оЁР Фе пех таш зибзуз$ет$: Фе забзу$ет оЁ фе 
14епаНсайоп оЁ Фе 1апоиасе оЁ Фе {1ех( доситепь Фе забзу$ет оЁ Фе тасбше {гапз- 
]апбоп, фе ацютайс шдехше ап4 гейлеуа! оЁ Фе ге]еуап( аоситеп$ зибзу$ет апа фе 
забзузет оЁ Фе 14епй ЙсаНоп оЁ Фе едшуаепсе оЁ Фе Настеп($ оЁ Фе доситеп5. 

Тре заб зу$ет оЁ фе ащютайс шаехш» ап гейлеуа| оЁ Фе ге!еуапЕ доситеп 
ргоу14ез фе розу оЁ Ше геблеуа[ оЁ Фе доситеп5 гёеуап © Фе шриё доситеп т 
фе слуеп РаШ-ехЕ ааБазе аз уе аз Пиегпе! зеагсй уф Фе Кеу \ог4$ ащотайсаПу 
тагке опё Нот Фе апа[у7ед доситепе изше ТЕ-ТОЕ тефод. Тве забзузет $Во\$ 
ассерае гезиз зеп4ате ю Ше Соозе зеагсВ епоше НЁИееп Кеу \ог@$ даемез апа 
о\тоаЧте Нг$Е ИКу Пиегпе-ауаЙае доситеп(5. 


Статья поступила в редакцию 31.05.2012. 
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